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Dispositif et methode perfectionnes de spatialisation du son 

5 L' invention concerne le domaine du traitement du son. 

La technique actuelle du traitement du son permet d'ajouter a la presentation d'une scene, 
en particulier en 3D sur ecran, un son spatialise de fagon a ameliorer de maniere significative 
pour un spectateur le realisme et le sens de F immersion dans la scene. Cette technique est 
10 appropriee pour le traitement en temps reel d'un nombre limite de sources sonores dans la 
scene. 

Les scenes, notamment virtuelles, deviennent de plus en plus complexes; en d'autres termes, 
le nombre de sources sonores dans une scene augmente. Ainsi, traiter en temps reel ces 
15 nombreuses sources sonores et effectuer un rendu sonore spatialise pour ce grand nombre 
de sources sonores est souvent impossible en raison du cout eleve du traitement du signal. 

L'invention vient ameliorer la situation. 

2 0 L'invention concerne un dispositif informatique comprenant une memoire apte a stocker des 

signaux audio en partie pre-enregistres, correspondant chacun a une source definie par des 

iff - ■ 

donnees de position spatiale, 

un module de traitement pour traiter ces signaux audio en temps reel en fonction des donnees 
de position spatiale. 

25 

Selon une caracteristique principale de l'invention, le module de traitement est apte a 
calculer des parametres de niveau de puissance instantane a partir des signaux audio, les 
source correspondantes etant definies par lesdits parametres de niveau de puissance 
instantane, le module de traitement comprend un module de selection apte a regrouper 

3 0 certains des signaux audio en un nombre variable de groupes de signaux audio, et le module 

de traitement est apte a calculer des donnees de position spatiale representatives d'un groupe 
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de signaux audio en fonction des donnees de position spatiale et des parametres de niveaux 
de puissance instantanes de chaque source correspondante. 

Le dispositif inforrnatique selon 1 * invention peut comprendre de nombreuses caracteristiques 
5 supplementaires qui pourront etre prises separement et/ou en combinaison : 

- le module de selection apte, prealablement a la construction de groupes de signaux audio, 
a selectionner les signaux audio inaudibles en fonction des parametres de niveaux de 
puissance instantanes comprenant un niveau de puissance et un seuil de masquage pour 
chaque source et a conserver les seuls signaux audio audibles; 

10 - les parametres de niveau de puissance sont calculees pour chaque source a partir de la 
densite spectrale de puissance instantanee pre-calcule a partir des signaux audio en partie 
pre-enregistres; 

- le module de traitement est apte a traiter chaque groupe de signaux audio en un signal audio 
de pre-mixage et pour rassembler les signaux audio de pre-mixage afin d'obtenir un signal 

15 de mixage audible par l'auditeur; 

- le module de traitement comprend un processeur video apte a transformer le groupe de 
signaux audio en un groupe de signaux video textures, a traiter chaque signal video texture 
du groupe selon des parametres de modification du son, et a rassembler et transformer les 
signaux en un signal audio de pre-mixage; 

2 0 - les parametres de modification du son comprennent un parametre d' attenuation du son 
et/ou un parametre de delai de propagation du son; 

- le module de selection est apte a construire, a partir d'un premier groupe de signaux audio 
et de donnees calculees de position spatiale du groupe, deux groupe de signaux audio et a 
calculer les donnees de position spatiale d'un representant de chacun de ces deux groupes, 

2 5 - le module de selection est apte a determiner, a partir du premier groupe de signaux audio, 
de leurs sources correspondantes et de donnees calculees de position spatiale du representant 
du premier groupe, une source pour laquelle la sornme des distances d'erreur calculees entre 
la position spatiale de cette source et celles des autres sources du groupe est rninimale et pour 
attribuer les signaux audio du premier groupe et leurs sources correspondantes a Tune des 

30 positions spatiales, parmi les donnees calculees de position spatiale du representant du 
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premier groupe et les donnees de position spatiale de la source determinee, en fonction 
devaluations de distance d'erreur, de fagon a former deux groupe; 

- le module de selection est apte a effectuer une evaluation de distance d'erreur pour un 
signal audio du premier groupe et sa source correspondante consistant a evaluer d'une part 

5 la distance d'erreur entre les donnees de position spatiale de cette source et les donnees 
calculees de position spatiale du representant du premier groupe et d' autre part la distance 
d'erreur entre les donnees de position spatiale de cette source et les donnees de position 
spatiale de la source determinee puis a evaluer la distance d'erreur minimale entre les deux 
et le module de selection etant apte a attribuer le signal audio et sa source correspondante 
10 aux donnees de position spatiale de la source determinee ou du representant du premier 
groupe correspondant a la distance d'erreur minimale, 

- les donnees de position spatiale de la source determinee correspondent aux donnees de 
position spatiale du representant d'un deuxieme groupe; 

- le module de selection est apte a calculer les donnees de position spatiale de chaque 
1 5 representant de groupe en fonction de parametres de niveau de puissance de chaque source 

attribute au groupe 

- le module de selection est apte a recalculer les donnees de position spatiale du representant 
de chacun des deux groupes en determinant une source pour laquelle la somme des distances 
d'erreur entre la position spatiale de cette source et celles des autres sources du groupe est 

2 0 minimale et le module de selection est en outre apte a re-attribuer les sources a fun ou 
l'autre des representants d'un des deux groupes en fonction de ladite evaluation de distance 
d'erreur minimale; 

- le module de selection est apte a recalculer les donnees deposition spatiale du representant 
de chacun des deux groupes et a re-attribuer les sources a Tun ou V autre des representants 

2 5 d'un des deux groupes jusqu'a ce que la somme des distances d'erreur entre les representants 
des deux groupes et leurs sources atteigne un minimum; 

- le module de selection est apte a diviser un groupe jusqu'a ce qu'un nombre determine de 
groupes soit obtenu ou jusqu'a ce que la somme des distances d'erreur entre les representants 
des groupes et leurs sources atteigne un seuil determine. 



30 
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L' invention concerne egalement un procede de traitement de signaux audio en partie pre- 
enregistres correspondant chacun a une source, comprenant les etapes consistant a 

a. calculer des parametres de niveau de puissance instantane a partir des signaux audio, les 
source correspondantes etant definies par ces parametres et par des donnees de position 

5 spatiale, 

b, regrouper certains des signaux audio en un nombre variable de groupes de signaux audio 
et calculer des donnees de position spatiale representatives de chaque groupe de signaux 
audio en fonction des donnees de position spatiale et des parametres de niveau de puissance 
instantane de chaque source correspondante, 

1 0 c. traiter ces signaux audio par groupe en temps reel en fonction de donnees de position 
spatiale representatives du groupe. 

D'autres caracteristiques et avantages de Pinvention apparaitront a Pexamen de la 
description detaillee ci-apres, ainsi que des dessins annexes sur lesquels: 

15 

- la figure 1 represente un dispositif informatique dans lequel est realise P invention, 

- la figure 2 illustre des elements materiels dans leur utilisation pour le traitement de signaux 
audio de Tart anterieur, 

20 

- la figure 3 illustre des elements materiels dans leur utilisation pour le traitement de signaux 
audio de V invention, 

- la figure 4 est un ordinogramme illustrant le procede de traitement de signaux audio de 
2 5 Tinvention, 

- la figure 4 A est un ordinogramme detaillant une etape de division par groupe du procede 
de la figure 4, 
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- la figure 4B est un ordinogramme detaillant une etape de traitement des signaux par groupe 
du procede de la figure 4, 

- la figure 5 represente schematiquement la comparaison entre l'utilisation de coordonnees 
5 cartesiennes et polaires pour la determination du positionnement d 'une source sonore Active 

remplagant deux sources sonores reelles, 

- la figure 6 illustre le traitement d'un signal audio sous forme d'un signal video par un 
processeur graphique 3D, 

10 

- la figure 7 illustre le traitement d'un signal en un signal comprime temporellement et 
attenue, 

- la figure 8 illustre, pour une configuration de quatre groupes de sources, deux echogram- 
1 5 mes des signaux de pre-mixage de chaque groupe obtenus differemment. 

L'annexe 1 presente les formules mathematiques utilisees pour la realisation de l'invention. 
L' annexe 2 presente les differentes variables utilisees et leur signification. 

2 0 Les dessins et les annexes contiennent, pour Tessentiel, des elements de caractere certain. lis 
pourront done non seulement servir a mieux faire comprendre la description, mais aussi 
contribuer a la definition de Tinvention, le cas echeant. 

La figure 1 represente un dispositif informatique comprenant une unite centrale 4 reliee a des 

2 5 peripheriques tels qu'un ecran 2, un clavier 5, une souris, un dispositif de hauts-parleurs 6 

et autres. Ce dispositif informatique est utilise pour la presentation visuelle dynamique sur 
ecran d'un environnement (appele aussi "scene") definissant differentes sources sonores et 
pour la restitution par haut-parleurs des sons provoques par ces dernieres. L'unite centrale 
comprend ainsi differents composants materiels aptes a trailer les signaux audio comme 

3 0 decrits en reference a la figure 2. 
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Ainsi, il est connu d'utiliser un processeur audio (ou module de traitement) relie a une 
memoire 8 et a un dispositif de haut-parleurs 28. Le processeur audio 10 peut faire partie 
d'une carte son et est alors appele DSP ("Digital Signal Processor" pour Processeur de 
Signal Numerique). Le processeur audio regoit les signaux numeriques provenant du 
5 processeur de la carte mere et les convertit en signaux analogiques transformes par haut- 
parleurs en sons. Les processeurs DSP plus performants permettent de trailer les signaux 
numeriques en ajoutant des distorsions de signal, des echos (appeles reverberations) par 
exemple. Certaines cartes meres integrent elles-memes une carte son munie du processeur 
DSP. Ainsi, dans le cas de la figure 2, le processeur audio travaille avec des donnees de 

10 signaux audio 14 et avec des donnees de positions spatiales d'un utilisateur (appele aussi 
"auditeur'% ou "spectateur") par rapport a la scene et de sources sonores 16 enregistres en 
memoire 8. Les signaux audio sont chacun emis par une source sonore ay ant une position 
spatiale definie dans une scene ou environnement presente a Fecran. De fagon connue, une 
position spatiale peut etre representee en memoire par un triplet de coordonnees cartesiennes, 

1 5 polaires ou autres. La definition de la position spatiale d'un auditeur donne permet egalement 
d'obtenir un rendu audio pour ce dernier. 

Comme indique sur la figure 2 et de fa^on connue, le processeur audio regoit les donnees de 
la memoire 8, c'est-a-dire chaque donnee de signal audio represente par une fleche 14-i (i 
20 etant un entier positif representant Tun des signaux audio) et les donnees de position des 
sources correspondantes et de T auditeur. Les signaux audio sont traites par le processeur 
audio. Ce traitement se traduit par Tajout d'effets 18 comprenant des operations qui doivent 
etre realisees pour chaque signal audio d'entree comme par exemple Fajout de Teffet 
Doppler, Fajout d'un delai, Tattenuation par la distance, Fajout des effets 

2 5 d'occlusion/d'obstruction, de directivite. D'autres effets comme les effets de positionnement 

22 de chaque signal de source dans la scene peuvent etre ajoutes (sons provenant d'une 
source lointaine ou d'une source proche de Fauditeur, rendu de la direction de provenance 
des sons aux oreilles de F auditeur). Les signaux audio sont ensuite soumis a un mixage 24 
correspondant a la sommation des signaux ainsi traites. Apres Fajout des effets 18, les 

3 0 signaux peuvent etre sommes en un signal soumis a certains effets, par exemple un effet de 
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reverberation. Le signal resultant est ajoute a la sommation des signaux spatialises grace au 
module de mixage 24 afin d'obtenir un signal sonore final. Le processeur audio traite les 
signaux audio en temps reel en fonction d'une donnee de position spatiale d'un auditeur. 

5 Ainsi, le processeur audio 10 delivre un signal analogique transforme en son et diffuse par 
le dispositif haut-parleur 28. Ce dispositif informatique permet d'obtenir un rendu sonore 
spatialise ameliorant le sens de realisme et d'immersion dans la scene ou l'environnement 
presente a l'ecran. Des exemples de cartes sonores connues sont detailles sur les pages 
internet suivantes : 
1 0 [1] Creative Labs Soudblaster©.http://www.soundblaster.com 
[2] Direct X homepage, ©microsoft 

[3] Environmental audio extensions: EAX 2.0 Creative © 

Toutefois, la technique decrite ci-dessus parvient a ses limites lorsqu'un grand nombre de 
15 sources sonores est defini dans la scene. Le traitement de ce grand nombre de sources 
sonores devient impossible en raison du cout du traitement des nombreux signaux. 

II est interessant de noter que le dispositif informatique decrit precedemment est en general 
lirnite a des sources sonores ponctuelles. Hors pour obtenir un rendu sonore realiste de 

2 0 sources sonores etendues ( c'est-a-dire non ponctuelles, un train par exemple) il est ppssible 
d'echantilloner la surface ou le volume definissant la source en une collection de source 
ponctuelles. Un desavantage d'une telle approche est qu'elle multiplie rapidement le nombre 
de sources a traiter. On rencontre un probleme similaire lorsque les reflections ou 
diffractions du son sur les parois de l'environnement virtuel doivent etre modelisees sous 

2 5 forme de "source-images". Ceci est presente dans les articles : 

[4] J.B. Allen et D.A Berkley , Image method for efficiently simulating small room acoustics, 
Journal of the Acoustical Society of America, n°4 ? Vol. 65, 1979. 

[5] J.Borish, Extension of the image model to arbitrary polyhcdrajournalof the Acoustical 
Society of America, n°6 ? vol.75 ? 1984. 
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[6]N.Tsingos et T.Funkhouser et A.Ngan et I. Carlbom, Modeling Acoustics in Virtual 
Environments using the Uniform Theory of Diffraction, ACM Computer Graphics, 
SIGGRAPH'01 Proceedings, p.545-552, aout 2001. 

5 Une solution technique a ete presentee par Herder se basant sur le regroupement de sources 
sonores et sur la selection d'un nombre fixe de sources sonores representatives de Fensemble 
des sources sonores. Toutefois, la technique de Herder reste couteuse et peu adaptable a un 
budget donne. Cette technique est decrite dans Pouvrage suivant : 

[7] Jens Herder. Optimization of sound spatialization resource management through 
10 clustering. The Journal of Three Dimensional Images, 3D-Forum Society, 13(3):59-70, 
Septembre 1999. 

Ainsi, P invention presente une solution technique permettant le rendu audio-visuel 
d'environnements contenant des centaines de sources sonores a un cout moindre que les 
15 solutions anterieures. Avantageusement, Pinvention permet un rendu audio-visuel avec 
reverberation et effets dependant de la frequence, sur des systemes grand -public. 

Un exemple de realisation du dispositif de Pinvention est detaille sur la figure 3. Le 
dispositif comprend une memoire 108 permettant de stocker des donnees de signaux audio 

20 114 et de positions des sources sonores correspondantes ainsi que de position de Pauditeur 
116. Cette memoire travaille en relation avec un module de traitement 110 comprenant un 
module de selection 120, un processeur video 130 et un processeur audio 140. A titre 
d'exemple, le dispositif mettant en oeuvre le procede de Pinvention peut etre un ordinateur 
PCXeon 1.8 Ghz comprenant une carte son qui peut etre une carte Soundblaster Audigy ou 

2 5 une carte SoundMax et une carte video qui peut etre une carte GeForce 4600Ti ou une carte 
ATI Radeon Mobility 5700. 

Le traitement des signaux audio en fonction des positions des sources sonores et de la 
position de Pauditeur est decrit sur Pordinogramme de la figure 4 en correspon dance avec 
30 la figure 3. 
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Prealablement au traitement des signaux par le module de traitement, des informations de 
type densite spectrale de puissance instantanee PSD et seuil de puissance de masquage M 
128 sont calculees par le module de traitement pour chaque position de source sonore 
stockee en memoire. Plusieurs expressions pour le calcul du seuil de puissance de masquage 
5 sont cohnues des applications de codage audio perceptuel (PAC), par exemple dans le 
standard de la couche III (mp3) de MPEG-1. Ces expressions peuvent etre trouvees dans les 
ouvrages suivants 

[8] K. Brandenburg. mp3 and aac explained. AES 17th International Conference on Hih- 
Quality Audio Coding, Septembre 1999, 
1 0 [9] R.Rangachar. Analysis and improvement of the MPEG-1 audio layer III algorithm at low 
bit-rates. Master thesis, Arizona State University, Decembre 2001. 

Ce seuil de puissance de masquage calcule correspond a la puissance maxim ale d'un bruit 
pouvant etre masque par le signal. Dans le cas de Finvention, les seuils de puissance de 
masquage peuvent etre dynamiquement calcules pour un grand nombre de sources. 
1 5 Toutefois, comme les donnees de signaux audio sont pre-enregistres et non pas dynamique- 
ment evalues, les seuils de puissance de masquage M sont dynamiquement calcules a partir 
d'information de tonalite T (ou index de tonalite) pouvant etre pre-calcules et pre-enregistres 
en 114, puis dynamiquement accessibles. II peut en aller de meme des densites spectrales de 
puissance instantanee PSD qui permettent de pre-calculer les informations de tonalite T. 

20 

II est egalement envisageable d'evaluer les densites spectrales de puissance instantanee PSD 
a la volee si Fintegralite du signal n'est pas disponible a Favance (par exemple quand les 
donnees audio sont synthetisees ou transmises sous forme de flux dit "streaming") de fagon 
a calculer les informations de tonalite T. On parte alors de signaux en partie pre-enregistres. 

2 5 Neanmoins cette evaluation a la voice necessite une plus forte puissance de calcul. 

A titre d'exemple uniquement, ces informations sont calculees pour chaque signal audio et 
plus precisement pour trois composantes pre-calculees de chaque signal audio correspondant 
a trois bandes de frequence du spectre audio audible. Le nombre de trois bandes de 

3 0 frequence n'est en aucun cas limitatif et pourrait par exemple etre de vingt-cinq bandes. Ces 
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bandes de frequence audibles sont, dans cet exemple, fl = [0-500 Hz] basses frequences, 
f2=[500-2000Hz] moyennes frequences et f3=[+ de 2000Hz] hautes frequences. Les seuils 
de puissance de masquage M et les densites spectrales de puissance instantanee PSD sont 
calcules a partir des techniques decrites dans les ouvrages suivants 

[10] K.Brandenburg. mp3 and aac explained,. AES 1 7th International Conference on High- 
Quality Audio Coding ,Septembre 1999. 

[11] E.M.Painter and A.S.Spanias. A review of algorithms for perceptual coding of digital 
audio signals. DSP-97, 1997 

[12] R.Rangachar. Analysis and improvement of the MPEG-1 audio layer III algorithm at low 
bit-rates. Master thesis, Arizona State University, December 2001. 

[13] Ken Steiglitz. A DSP Primer with applications to digital audio and computer music. 
Addison Wesley, 1996. 

Pour chaque bande de frequence, une transformee de Fourier est calculee a partir des 
techniques des ouvrages [8], [9] et 

[14] RM. Painter and A.S.Spanias. A review of algorithms for perceptual coding of digital 
audio signals. DSP-97, 1997. 

Pour chaque bande de frequence f, la distribution du spectre de puissance instantanee 
PSDt(f) est calculee pour chaque image t. Pour le calcul du seuil de masquage M, on se 
reportera aux equations Al a A3 de 1' annexe A. 

A un instant donne, le module de selection regoit les signaux audio 114, les informations 128 
de type seuil de masquage ainsi que le spectre de puissance instantanee PSD. Avec ces 
donnees, le module de selection effectue un tri entre les signaux et isole les sources 
inaudibles a Tetape 200 de 1 figure 4. 

Pour ce faire, le module de selection estime a V instant T le volume perceptif Lj du signal 
audio, comrne indique par J 'equation A4, de chaque source sonore k et pour 1'ensemble des 
bandes de frequences f. Comme indique a P equation A5, ce volume perceptif est fonction 
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du niveau de puissance de chaque bande de frequence f a un instant T-6, instant tenant 
cornpte du delai de propagation du signal entre la position de la source et la position de 
Fauditeur, et de la contribution <x(f) differente au volume perceptif de chaque niveau de 
puissance P(f). Le niveau de puissance de chaque bande de frequence f est calcule a partir 
5 de la distribution spectrale de puissance instantanee PSD de la source a Finstant T-S, de 
{'attenuation A dependant de la distance, de F occlusion, du modele de directivite de la 
source par exemple. Ce volume perceptif instantane peut etre moyenne sur les instants 
precedents (par exemple les dix instants T precedents). On parle de "parametres de niveau 
de puissance" pour englober le seuil de puissance de masquage et les parametres dependants 

10 des niveaux de puissance, c'est-a-dire les niveaux de puissance eux-memes et les volumes 
perceptifs par exemple. Une source est definie par sa position spatiale et ses parametres de 
niveau de puissance calcules par le module de traitement 110 de la figure 3. A chaque instant 
T, le module de selection 120 trie les sources sonores dans Fordre decroissant des resultats 
obtenus par le calcul du critere de F equation A6 combinant le volume perceptif et le seuil 

15 de masquage. Le critere A6 peut done etre considere comme une quantification de 
F importance perceptive de chaque source dans la scene sonore globale. 

Apres avoir calcule le niveau de puissance global de la scene Po pour Fensemble des sources 
en A7 a un instant donne, Falgorithme A8 est effectue a cet instant donne et pour chaque 

20 source Sk de maniere a selectionner et eliminer les sources inaudibles. L'algorithme A8 
insere progressivement les sources Sk par ordre decroissant d ? importance dans le mixage 
courant Pmix. Le niveau de puissance Pk de la source est retire de la puissance globale de 
la scene Po et est ajoute a la puissance courante du mixage Pmix, le seuil de puissance de 
masquage Mk de la source est ajoute.au seuil de puissance de masquage courant Tmix du 

2 5 mixage. L'algorithme A8 est here pour chaque source Sk tant que les deux conditions 
suivantes sont verifiees : 

1. la puissance globale courante de la scene est superieure a la difference entre la puissance 
courante du mixage et le seuil de puissance de masquage courant du mixage, 

2. la puissance globale restante est superieure au seuil absolu d'ecoute (ATH). 
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Sur la figure 3, les signaux sont representes par des fleches re<jus dans le module de selection 
et les signaux inaudibles sont representes par des fleches qui s'arr Stent dans le module de 
selection 120 en une croix. Ces operations se repetent successivement pour chaque instant. 

5 Avec les sources audibles, le module de selection determine le nombre N de groupes de 
signaux audio audibles (ou de sources audibles) possible a realiser a Petape 202. 

Le nombre N de groupes peut etre directement pre-determine par Putilisateur, enregistre et 
lu par le module de selection par exemple, ou resulter de la valeur du seuil d'erreur definie 

1 0 ulterieurement en A10, valeur fixee par Putilisateur, Un groupe de source peut etre spatialise 
en utilisant un canal audio de la carte son (DSP). Le nombre N de groupes pourra done etre 
choisi comme etant egal au nombre maximum de canaux pouvant etre spatialise par la carte 
son. Si la spatialisation, e'est-a-dire le traitement positionnel du son, doit etre effectue a 
Paide du processeur central, une evaluation du cout du calcul d'un groupe peut permettre a 

15 Putilisateur de determiner quel nombre N de groupes construire. II est possible egalement 
de maintenir dynamiquement une evaluation du cout des calculs effectues pour chaque 
groupe (par exemple en evaluant le temps processeur necessaire) et d 'adapter le nombre N 
de groupes en fonction. Ce nombre N est done variable selon les valeurs rentrees par 
Putilisateur, selon le nombre de canaux de la carte son ou selon Pevaluation de couts par 

2 0 exemple. 

A Petape 204, le module de selection est apte a regrouper en N groupes les signaux audio. 
Le module de traitement est apte a calculer une position spatiale representative pour chaque 
groupe de signaux audio en fonction de la position spatiale et du volume perceptif de chaque 
2 5 source correspondante. 

Le precede de Petape 204 sera plus particulierernent detaille en reference a la figure 4A par 
la suite. Le procede de Petape 204 peut egalement effectuer un regroupement de signaux 
audio en utilisant un autre procede que celui detaille en reference a la figure 4A. Ainsi, il est 
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possible de determiner les N representants choisis parmi les sources en utilisant une 
heuristique telle que presentee dans 1'ouvrage 

[14] Hochbaum, D. and Shmoys, D. Abest possible heuristic for the k-center problem. 
5 Mathematics of Operations Research, 1985. 

Les N groupes sont ainsi formes en affectant chaque source au representant le plus proche 
au sens de la metrique definie dans 1'equation A9 detaillee plus loin. 

10 A l'etape 206, les signaux audio de chaque groupe sont traites afin d'obtenir un signal audio 
de pre-mixage par groupe. L'obtention d'un signal de pre-mixage par groupe sera explicite 
en relation avec la figure 4B detaillant l'etape 206. De maniere avantageuse et en reference 
a la figure 3, l'etape de pre-mixage des signaux par groupe se deroule dans le processeur 
video 130 dans un module de pre-mixage 132. Par pre-mixage, on entend tout d'abord les 

1 5 operations qui doivent etre realisees pour chaque signal audio d' entree comme par exemple 
l'ajout de l'effet doppler, Tajout d'un delai, Tattenuation par la distance, des effets 
d'occlusion/d'obstruction, de directivite, ainsi que la somme des signaux ainsi traites dans 
chaque groupe. Le pre-mixage peut egalement comprendre la sommation de tous les signaux 
de tous les groupes afin d'ajouter un effet de reverberation 146 sur ce signal de sommation 

2 0 (S). Ensuite, le processeur audio 140 regoit un signal audio de pre-mixage pour chaque 
groupe, et le signal de sommation (E). Le processeur audio peut ajouter des effets de 
reverberation 146 sur le signal de sommation. Le processeur audio applique un effet de 
positionnement 142 sur chaque signal audio de pre-mixage avant de mixer ces derniers entre- 
eux ainsi que le signal resultant du module de reverberation 146 afin d'obtenir un signal 

25 audio de mixage audible par l'auditeur a l'etape 208. 

Par mixage, on entend, apres les operations de positionnement des signaux dans la scene, la 
sommation finale des operations de positionnement et des effets de reverberation si il y a 
lieu. 

30 
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L'etape 204 est maintenant detaillee en reference a la figure 4A 

Dans un premier temps, le regroupement des sources en groupes s'effectue en construisant 
un premier groupe unique reunissant les sources audibles, puis ce groupe est successivement 
5 decoupe pour obtenir le nombre de groupes voulu. Dans le cas ou le nombre de groupes est 
plus grand que le nombre de sources disponibles, chaque source representee un groupe. 

A l'etape 2000, le module de selection definit un premier groupe unique reunissant les 
sources audibles et calcule la position spatiale du representant CI du groupe. Cette position 

10 spatiale correspond a revaluation du centroide a partir du jeu de positions spatiales des 
sources emettant les signaux audio. Dans l'exemple de 1 'invention et comme illustre par la 
figure 5, il est interessant d'utiliser les coordonnees polaires pour definir les positions 
spatiales des sources SI et S2 eloignees de l'auditeur afin de determiner un centroide polaire 
CP du representant du groupe et non un centroide cartesien CC. En effet, le centroide 

1 5 cartesien CC du representant du groupe est tres proche de 1' auditeur AU et ne permet pas de 
conserver la distance entre les sources (SI et S2) et l'auditeur. Au contraire, le centroide 
polaire CP du representant du groupe conserve la distance avec l'auditeur AU et done le 
delai de propagation du signal jusqu'a l'auditeur. De fa<jon a determiner la position spatiale 
du representant CI du groupe a la maniere d'un bary centre, le volume perceptif de chaque 

20 source peut etre associe a ses coordonnees spatiales comme indique en All. 

A l'etape 2002, une source Si du groupe est choisie telle que ses donnees minimisent une 
fonction d'erreur globale definie en A10. En effet, un representant de groupe doit assurer que 
les distorsions acoustiques sont minimales lorsqu'il est utilise pour spatialiser le signal. La 

2 5 fonction d'erreur globale est la somme des distances d'erreurs ou "metriques d'erreurs" pour 
toutes les sources du groupe. Ces distances d'erreurs ou "metriques d'erreurs" sont definies 
en A9 comme la somme de deux termes de deviation spatiale entre une source et le 
representant du groupe. Ainsi, l'etape 2002 consiste a determiner, a partir du premier groupe 
de signaux audio, de leurs sources correspondantes et de donnees calculees de position 

30 spatiale du representant CI du premier groupe, une source pour laquelle la somme des 
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distances d'erreur calculees entre la position spatiale de cette source et celles des autres 
sources du premier groupe est minimale. C et Sk utilisees dans A9 correspondent 
respectivement a un premier et un deuxieme vecteur, dans un repere centre sur la position 
courante de Pauditeur, ay ant pour coordonnees spatiales cartesiennes respectivement celles 
5 du centroYde C et celles de la source Sk. Les deux termes de la somme comprennent un terme 
de deviation de distance et un terme de deviation d'angle. La contribution du volume 
perceptif dela source permet d' assurer une distance d'erreur minimale pour les sources ay ant 
un fort volume perceptif. A titre d'exemple uniquement, les parametres y et p peuvent 
prendre les valeurs 1 et 2 respectivement pour equilibrer Pimportance des termes de 
1 0 deviation entre-eux. 

La source Si choisie devient le nouveau representant C2 d'un deuxieme groupe a constituer. 
A Petape 2004, les signaux audio du groupe et les sources correspondantes sont attributes 
soit au representant CI, soit au representant C2 selon un critere donne. Ainsi, Petape 2004 

1 5 consiste a attribuer les signaux audio du premier groupe et leurs sources correspondantes 
a Pune des positions spatiales, parmi les donnees calculees de position spatiale du 
representant CI du premier groupe et les donnees de position spatiale de la source Si 
determinee, en fonction devaluations de distance d'erreur, de fagon a former les deux 
groupes. La distance d'erreur entre la position spatiale d'une source Sk du groupe et la 

20 position spatiale du representant CI du groupe est comparee a la distance d'erreurentre la 
position spatiale de la meme source et la position spatiale du representant C2 (correspondant 
a la source Si). La distance d'erreur minimale permet de determiner le representant auquel 
le signal audio et la source correspondante seront attribues. Plus precisement, le signal audio 
et sa source correspondante sont attribues aux donnees de position spatiale de la source Si 

2 5 determinee (correspondant au representant C2) ou du representant CI du premier groupe 

correspondant a la distance d'erreur minimale (2004). 

Une fois Pattribution des signaux audio et leurs sources aux representants CI ou C2 
effectuee, la position spatiale des representants CI et C2 est recalculee selon All pour 

3 0 optimisation a Petape 2006. A Petape 2008, les representants CI et C2 ayant de nouvelles 
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positions spatiales, une nouvelle attribution des signaux audio et leurs sources aux 
representants CI et C2 est effectuee selon le meme critere de distance d'erreur niinimale 
qu'a Fetape 2002. Les etapes 2006, c'est-a-dire recalculer les donneesde position spatiale 
du representant de chacun des deux groupes, et 2008, c'est-a-dire re-attribuer les sources a 
Fun ou Fautre des representants d'un des deux groupes, sont repetees jusqu'a ce qu'un 
critere soit verifie a Fetape 2010. Dans la realisation presentee, le critere de Fetape 2010 est 
que la somme des erreurs globales pour les representants des deux groupes atteigne un 
minimum local de la fonction d'erreur A10. En d'autres termes, ce critere de Fetape 2010 
est que la somme des distances d'erreur entre les representants des deux groupes et leurs 
sources atteigne un minimum. 

Apres Fobtention de groupes dont les representants ont des positions spatiales optimisees 
vis a vis des sources de chaque groupe, il est possible de re-diviser un des groupes en deux 
groupes de fagon iterative (retour a Fetape 2002). Le groupe a diviser peut etre choisi parmi 
tous les groupes courants, par exemple celui dont Ferreur A10 est la plus importante. La 
subdivision est effectuee jusqu'a Fobtention du nombre de groupes souhaite ou jusqu'a ce 
que Ferreur globale, c'est-a-dire la somme des erreurs A10 pour chaque groupe, soit 
inferieure a un seuil predefini par Futilisateur. 

La figure 4B reprend en detail Fetape 206 de la figure 4. Les signaux audio sont re§us en 
groupes par le processeur video. Comme vu precedernment et illustre sur la figure 6, chaque 
signal audio SOI a ete decompose en trois composantes R, G, B pre-calculees correspondant 
a trois bandes de frequence du spectre audio audible. Toutefois, d'autres bandes de 
frequence que celles deja utilisees peuvent etre utilisees a Fetape 206. A Fetape 2020, dans 
le processeur video, ces composantes R, G, B sont chargees en memoire sous forme d'une 
collection de trongons textures ID. Ainsi, le signal video SV1 resulte du filtrage du signal 
audio SOI sous forme de deux lignes texturees, Fune pour la partie positive du signal, Fautre 
pour la partie negative du signal, chaque ligne comprenant une collection de trongons 
textures. Les textures possibles des trongons peuvent correspondre, de fagon non limitative, 
a une variation de contrastes monochromatiques ou a une variation du noir au blanc, comme 
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illustree. Selon la figure 6, pour la ligne positive du signal video, plus le signal audio prend 
une valeur elevee plus le trongon correspondant a une texture claire et pour toutes les valeurs 
negatives du signal audio, les trongons correspondants prennent une meme texture foncee. 
Pour la ligne negative du signal video, plus le signal audio prend une valeur negative dont 
5 la valeur absolue est elevee plus le trongon correspondant a une texture claire et pour toutes 
les valeurs positives du signal audio, les trongons correspondants prennent une texture 
foncee, en general une texture noire. 

La representation sous la forme de deux lignes texturees n'est pas limitative et peut se 
10 reduire a une ligne s'il est utilise une memoire video acceptant les valeurs negatives du 
signal. 

A Fetape 2022, le signal video de chaque source est ensuite re-echantillonne pour tenir 
compte de la variable du delai de propagation prenant une valeur differente selon 

15 Femplacement de la source par rapport a Fauditeur. A Fetape 2024, le signal video de 
chaque source est egalement attenue selon la distance entre la source et Fauditeur. Ces etapes 
2022 et 2024 de modification du signal selon des parametres de modification du son peuvent 
etre realisees en meme temps ou dans un ordre different de celui de la figure 4B. D'autres 
parametres de modification du son pourraient etre envisages, par exernple F attenuation 

2 0 pourrait etre une fonction de la frequence. La figure 7 illustre le re-echantillonnage et 
F attenuation du signal d'une source. Le signal audio S02 (fonction du temps) est d'abord 
filtre pour obtenir un signal video SV2 par exernple sous forme de deux lignes texturees 
(Fune pour la partie positive du signal audio, F autre pour la partie negative du signal audio), 
le signal formant un premier ensemble de blocs textures TBk et un deuxieme ensemble de 

2 5 blocs textures TBk+1 . Le re-echantillonage des deux ensembles est effectue pour reduire le 
temps de propagation du signal en fonction du delai de propagation. Le signal peut etre 
egalement attenue selon une attenuation dependant de la bande de frequence et/ou selon une 
attenuation dependant de la distance source-auditeur, ou plus precisement, une attenuation 
dependant de la distance source-auditeur corrigee par la distance source-representant du 

30 groupe. A titre de comparaison, le signal audio S02 et video correspondant SV2 sont 
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preserves apres re-echantillonnage temporel et attenuation de P amplitude sur la figure 7. Le 
signal audio S02 est ainsi compresse temporellement et P amplitude du signal est attenuee 
progressivement en fonction du temps. Les operations 2022 et 2024 effectuees sur le signal 
video SV2 (correspondant au signal audio S02) permettent d'obtenir un signal video SV3 
5 (correspondant au signal audio S03) compresse temporellement et attenue progressivement 
en fonction du temps. La compression temporelle du signal video se traduit par exemple par 
une largeur diminuee des trongons textures afin d'obtenir deux ensembles de bloc LSI et 
LS2. L' attenuation progressive en fonction du temps se traduit par exemple par une 
modulation des textures des trongons. 

10 

A Petape 2026, chaque signal video est converti en un signal audio en effectuant tout 
d'abord une recombinaison des deux lignes du signal video (parties positive et negative du 
signal). Pour chaque groupe, les signaux audio sont alors rassembles en un signal audio 
unique relie au groupe de sources. Le signal audio obtenu par groupe est appele signal audio 

15 de pre-mixage. La figure 8 illustre, pour un ensemble de groupes Gl, G2, G3 et G4 de 
sources et un auditeur L, deux echogrammes HI et H2 donnant la quantite d'energie delivree 
par groupe en fonction du temps delivree a Pauditeur L. Le premier echogramme HI illustre 
le cas du procede de la figure 4B. Ainsi, chaque signal de chaque groupe fait Pobjet 
individuellement des operations 2022 et 2024 avant le rassemblement des signaux par 

2 0 groupe a Petape 2026. Cet ordre des etapes permet d'obtenir une distribution d'energie dans 
le temps pour chaque groupe tout en prenant en compte le delai de propagation et 
Pattenuation de chaque signal du groupe. L'echogramme H2 illustre le cas ou les operations 
2022 et 2024 ont ete effectuees apres le rassemblement des signaux audio par groupe de 
sources, c'est-a-dire sur chaque signal representant un groupe. Cet ordre des etapes permet 

2 5 d'obtenir une distribution d'energie dans le temps pour chaque groupe mais cette fois en 

prenant en compte le delai de propagation et Pattenuation du signal representatif des signaux 
du groupe. L' ordre des etapes peut etre choisi selon le degres de fine perception des sons 
voulu par Pauditeur. II est clair que la memoire utilisee et les temps de calcul seront moindre 
dans le cas de Phistogramme H2 mais que la perception des sons de Pauditeur sera moins 

3 0 fine que dans le cas de Phistogramme HI. 
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Ce processus peut etre implements sur toute carte graphique accelerant les routines des 
librairies graphiques standard "OpenGL" ou "Direct 3D". Les capacites des nouvelles cartes 
graphiques permettent a present de travailler avec des micro-programmes executes chaque 
fois qu'un pixel est affiche ("pixel shader "ou "fragment programs"). Dans ce cas, il est 
5 possible de travailler avec des donnees signees et il n'est pas necessaire de separer les parties 
positives et negatives du signal. De plus dans ce cas ? les operations peuvent etre effectuees 
avec une resolution etendue (32 bit flottant contre 8 bits entiers sur des cartes plus 
anciennes). Pour eel a, il est possible d'utiliser le meme algorithme que precedemment pour 
construire une texture dont chaque ligne correspond au signal SV2 de chaque source. Puis 
1 0 les lignes voulues sont additionnees pour chacun des groupes dans un micro-programme 
"pixel shader" en tragant une nouvelle ligne par groupe. L'acces aux lignes voulues et leur 
addition sont effectues dans le programme du "pixel shader". 

Chaque signal audio de pre-mixage est relie au representant d'un groupe qui represente une 
1 5 source Active. Ces signaux audio de pre-mixage peuvent etre utilises par un systeme audio 
spatialise standard pour rendre audible les sources de la scene visualisee. A titre d'exemple, 
la spatialisation peut etre effectuee par un logiciel ou par une interface de programmation 
standard pour le rendu audio de jeux tel que Direct Sound. Dans ce dernier cas, une memoire 
tampon 3D audio peut etre creee pour stocker le signal de pre-mixage de chaque groupe. 
2 0 Chaque signal de pre-mixage est alors positionne aux coordonnees du representant de son 
groupe, par exemple en utilisant la commande SetPosition de Tinterface de programmation 
Direct sound. D'autres traitements comme celui de la reverberation artificielle peuvent 
egalement etre utilises lorsque proposes par le systeme audio spatialise standard utilise. 

2 5 L'approche decrite introduit trois etapes principales utilisant une elimination perceptive des 
sources sonores inaudibles, un regroupement permettant de rendre un grand nombre de 
sources sur un nombre limite de canaux audio cables et le materiel graphique pour effectuer 
les operations de premixage necessaires. 
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Avec peu cTimpact sur les performances graphiques, le procede et le dispositif associe 
permettent d'exploiter les ressources materielles des cartes sonores existantes tout en 
introduisant des possibilites de controle et traitement supplementaires. 

La mise en oeuvre du procede decrit par un dispositif approprie pennet d'obtenir un rendu 
audio-visuel de qualite pour un environnement virtuel complexe comprenant des centaines 
de sources mobiles, de personnages et d'objets animes. 

L'invention pourrait egalement s'appliquer a un dispositif informatique comprenant une 
carte mere comprenant elle-meme un processeur video ou une carte video et un processeur 
audio ou une carte son. 
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Annexe 2 

C : representant d'un groupe - par extension dans les formules mathematiques, vecteur de 
coordonnees spatiales du representant d'un groupe 
5 Sk : source sonore dans une scene virtuelle - par extension dans les formules mathematiques, 
vecteur de coordonnees spatiales de la source sonore 

: volume perceptif d'un signal audio d'une source sonore Sk a un instant T 
a(f) : poids controlant Fimportance perceptive relative d'une bande de frequence f donnee 
f : bande de frequence d'un signal audio 
1 0 P k T ^(f) : estimation du niveau de puissance de chaque bande de frequence f du signal audio 
d'une source sonore K a un instant T~6 
6; delai de propagation du signal audio 
r : distance source sonore - auditeur 
c : vitesse du son 

15 A k T (f): attenuation dependante de la frequence et resultant notamment de la distance, la 
direction de la source 

PSD k T " 6 : distribution du spectre de puissance instantanee 

ATH : seuil absolu d'ecoute 

Ptot : niveau de puissance totale de la scene 
20 SFMt(f) : mesure d'aplati spectral 

\xg : moyenne geometrique de la PSD sur toutes les frequences 

p,a : moyenne arithmetique de la PSD sur toutes les frequences 

Tt(f) : index de tonalite, niveau de bruit d'un signal 

Mt(f) : seuil de masquage (en dB) 
25 Pmix : puissance courante du mixage 
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Revendications 

1, Dispositif informatique comprenant 

une memoire (8, 108) apte a stacker des signaux audio (14, 114) en partie pre-enregistres, 
5 correspondant chacun a une source definie par des donnees de position spatiale (16,116), 
un module de traitement (10,110) pour traiter ces signaux audio en temps reel en fonction 
des donnees de position spatiale, 
caracterise en ce que 

le module de traitement (110) est apte a calculer des pararnetres de niveau de puissance 
10 instantane a partir des signaux audio (114), les source correspondantes etant definies par 
lesdits pararnetres de niveau de puissance instantane, 

en ce que le module de traitement (110) comprend un module de selection (120) apte a 
regrouper certains des signaux audio en un nombre variable de groupes de signaux audio, 
et en ce que le module de traitement (110) est apte a calculer des donnees de position spatiale 
15 representatives d'un groupe de signaux audio en fonction des donnees de position spatiale 
(116) et des pararnetres de niveaux de puissance instantanes de chaque source correspon- 
dante. 

2. Dispositif informatique selon la revendication 1, caracterise en ce que le module de 
20 selection (120) est apte, prealablement a la construction de groupes de signaux audio, a 

selectionner les signaux audio inaudibles en fonction des pararnetres de niveaux de puissance 
instantanes comprenant un niveau de puissance (P k T " 6 (f)) et un seuil de masquage (Mt(f)) 
pour chaque source et a conserver les seuls signaux audio audibles. 

25 3. Dispositif informatique selon la revendication 2, caracterise en ce que les pararnetres de 
niveau de puissance sont calculees pour chaque source a partir de la densite spectrale de 
puissance instantanee (PSD) pre-calcule a partir des signaux audio en partie pre-enregistres. 

4. Dispositif informatique selon Tune des revendications 1 a 3, caracterise en ce que le 
30 module de traitement (110) est apte a traiter chaque groupe de signaux audio en un signal 
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audio de pre-mixage et pour rassembler les signaux audio de pre-mixage afin d'obtenir un 
signal de mixage audible par l'auditeur. 

5. Dispositif informatique selon Tune des revendications precedentes, caracterise en ce que 
le module de traitement (110) comprend un processeur video (130) apte a transformer le 
groupe de signaux audio en un groupe de signaux video textures, a traiter chaque signal 
video texture du groupe selon des parametres de modification du son, et a rassembler et 
transformer les signaux du groupe en un signal audio de pre-mixage. 

6. Dispositif informatique selon la revendication 5, caracterise en ce que les parametres de 
modification du son comprennent un parametre d'attenuation du son et/ou un parametre de 
delai de propagation du son. 

7. Dispositif informatique selon Tune des revendications precedentes, caracterise en ce que 
le module de selection (120) est apte a construire, a partir d'un premier groupe de signaux 
audio et de donnees calculees de position spatiale du groupe, deux groupe de signaux audio 
et a calculer les donnees de position spatiale d'un representant de chacun de ces deux 
groupes. 

8. Dispositif informatique selon la revendication 7, caracterise en ce que le module de 
selection (120) est apte a determiner, a partir du premier groupe de signaux audio, de leurs 
sources correspondantes et de donnees calculees de position spatiale du representant du 
premier groupe, une source pour laquelle la somme des distances d'erreur calculees entre la 
position spatiale de cette source et celles des autres sources du groupe est minimale et pour 
attribuer les signaux audio du premier groupe et leurs sources correspondantes a Tune des 
positions spatiales, parmi les donnees calculees de position spatiale du representant du 
premier groupe et les donnees de position spatiale de la source determinee, en fonction 
d 'evaluations de distance d'erreur, de fagon a former les deux groupes. 
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9. Dispositif informatique selon la revendication 8, caraeterise en ce que le module de 
selection est apte a effectuer une evaluation de distance d'erreur pour un signal audio du 
premier groupe et sa source correspondante consistant a evaluer d'une part la distance 
d'erreur entre les donnees de position spatiale de cette source et les donnees calculees de 
5 position spatiale du representant du premier groupe et d'autre part la distance d'erreur entre 
les donnees de position spatiale de cette source et les donnees de position spatiale de la 
source determinee puis a evaluer la distance d'erreur minimale entre les deux, le module de 
selection etant apte a attribuer le signal audio et sa source correspondante aux donnees de 
position spatiale de la source determinee ou du representant du premier groupe correspon- 
1 0 dant a la distance d'erreur minimale. 

10. Dispositif informatique selon Tune des revendications 7 a 9, caraeterise en ce que les 
donnees de position spatiale de la source determinee correspondent aux donnees de position 
spatiale du representant du deuxieme groupe. 

11. Dispositif informatique selon Tune des revendications 7 a 10, caraeterise en ce que le 
module de selection (120) est apte a calculer les donnees de position spatiale de chaque 
representant de groupe en fonction de parametres de niveau de puissance de chaque source 
attribute au groupe. 

2 0 

12. Dispositif informatique selon les revendications 7 a 11, caraeterise en ce que le module 
de selection (120) est apte a recalculer les donnees de position spatiale du representant de 
chacun des deux groupes en determinant une source pour laquelle la somme des distances 
d'erreur entre la position spatiale de cette source et celles des autres sources du groupe est 

2 5 minimale et le module de selection (120) est en outre apte a re-attribuer les sources a Tun 
ou 1' autre des representant s d'un des deux groupes en fonction de ladite evaluation de 
distance d'erreur minimale. 

13. Dispositif informatique selon la revendication 12, caraeterise en ce que le module de 
30 selection (120) est apte a recalculer les donnees de position spatiale du representant de 
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chacun des deux groupes et a re-attribuer les sources a Tun ou V autre des representants d'un 
des deux groupes jusqu'a ce que la somme des distances d'erreur entre les representants des 
deux groupes et leurs sources atteigne un minimum. 

5 14. Dispositif informatique selon Tune des revendications 7 a 13, caracterise en ce que le 
module de selection (120) est apte a diviser un groupe jusqu'a ce qu'un nombre determine 
de groupes soit obtenu ou jusqu'a ce que la somme des distances d'erreur entre les 
representants des groupes et leurs sources atteigne un seuil determine. 

10 15. Procede de traitement de signaux audio en partie pre-enregistres correspondant chacun 
a une source, comprenant les etapes consistant a 

a. calculer des parametres de niveau de puissance instantane a partir des signaux audio, les 
sources correspondantes etant definies par ces parametres et par des donnees de position 
spatiale, 

15 b. regrouper certains des signaux audio en un nombre variable de groupes de signaux audio 
et calculer des donnees de position spatiale representatives de chaque groupe de signaux 
audio en fonction des donnees de position spatiale et des parametres de niveau de puissance 
instantane de chaque source correspondante (204), 

c. traiter ces signaux audio par groupe en temps reel en fonction de donnees de position 
2 0 spatiale representatives du groupe (206, 208). 

16. Procede selon la revendication 15, caracterise en ce que Fetape a. comprend en outre de 
selectionner les signaux audio inaudibles en fonction des parametres de niveau de puissance 
instantanes comprenant un niveau de puissance et un seuil de masquage pour chaque source 

25 et de conserver les seuls signaux audio audibles (200). 

17. Procede selon la revendication 16, caracterise en ce que les parametres de niveau de 
puissance sont calculees pour chaque source a partir de la densite spectrale de puissance 
instantanee pre-calculee a partir des signaux audio en partie pre-enregistres. 
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18. Precede selon Tune des revendications 15 a 17, caracterise en ce que Fetape c. consiste 
a 

cl. traiter chaque groupe de signaux audio en un signal audio de pre-mixage (206), 

c2. rassembler les signaux audio de pre-mixage afin d'obtenir un signal de mixage audible 

par Pauditeur (208). 

19. Precede selon la revendication 17, caracterise en ce que Fetape cl. consiste en outre a 
transformer un groupe de signaux audio en un groupe de signaux video textures par 
utilisation d'un processeur video (2020), a traiter chaque signal video texture du groupe 
selon des parametres de modification du son (2022, 0224), et a rassembler et transformer les 
signaux du groupe en un signal audio de pre-mixage (2026). 

20. Procede selon la revendication 19, caracterise en ce que les parametres de modification 
du son comprennent un parametre d 'attenuation du son et/ou un parametre de delai de 
propagation du son. 

21. Procede selon Tune des revendications precedentes, caracterise en ce que Fetape b. 
consiste en outre a construire, a partir d'un premier groupe de signaux audio et de donnees 
calculees de position spatiale du groupe (2000), deux groupe de signaux audio et a calculer 
les donnees de position spatiale d'un representant de chacun de ces deux groupes (2002 a 
2012). 

22. Procede selon la revendication 21, caracterise en ce que Fetape b. consiste en outre a 
determiner, a partir du premier groupe de signaux audio, de leurs sources correspondantes 
et de donnees calculees de position spatiale du representant du premier groupe, une source 
pour laquelle la somme des distances d'erreur calculees entre la position spatiale de cette 
source et celles des autres sources du premier groupe est minimale (2002) et a attribuer les 
signaux audio du premier groupe et leurs sources correspondantes a Fune des positions 
spatiales, parmi les donnees calculees de position spatiale du representant du premier groupe 
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et les donnees de position spatiale de la source determinee, en fonction devaluations de 
distance d'erreur, de fa?on a former les deux groupes (2004). 

23. Procede selon la revendication 22, caracterise en ce que revaluation de distance de 
5 Petape b. consiste pour un signal audio du premier groupe et sa source correspondante, a 

e valuer d'une part la distance d'erreur entre les donnees de position spatiale de cette source 
et les donnees calculees de position spatiale du representant du premier groupe (A9) et 
d 'autre part la distance d'erreur entre les donnees de position spatiale de cette source et les 
donnees de position spatiale de la source determinee puis a evaluer la distance d'erreur 
10 minimale entre les deux et a attribuer le signal audio et sa source correspondante aux 
donnees de position spatiale de la source determinee ou du representant du premier groupe 
correspondant a la distance d'erreur minimale (2004). 

24. Procede selon Time des revendications 21 a 23, caracterise en ce que les donnees de 
1 5 position spatiale de la source determinee de Petape b. correspondent aux donnees de position 

spatiale du representant du deuxieme groupe. 

25. Procede selon Pune des revendications 21 a 24, caracterise en ce que Petape b. consiste 
egalement a recalculer les donnees de position spatiale du representant de chacun des deux 

2 0 groupes (2006) et a re-attribuer les sources a Pun ou Pautre des representants d'un des deux 
groupes (2008) jusqu'a ce que la somme des distances d'erreur entre les representants des 
deux groupes et leurs sources atteigne un minimum (2010). 

26. Procede selon les revendications 21 a 25, caracterise en ce que Petape b. consiste a 
2 5 diviser un groupe jusqu'a ce qu'un nombre determine de groupes soit obtenu ou jusqu'a ce 

que la somme des distances d'erreur entre les representants des groupes et leurs sources 
atteigne un seuil determine (2012). 
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